EvoClass
IA012
Approfondimento sui grandi modelli linguistici
Agenti autonomi, RLHF e allineamento della sicurezza
Obiettivi didattici
- Analizzare i componenti architetturali degli agenti GUI, inclusi i moduli di pianificazione, decisione e riflessione nei sistemi multi-agente.
- Spiegare i meccanismi dell'Apprendimento per rinforzo (RL) e del RLHF, in particolare il ruolo dei modelli di ricompensa e di PPO nell'allineare il comportamento dell'agente ai valori umani.
- Valutare i rischi per la sicurezza e le problematiche di affidabilità negli agenti autonomi, inclusi gli errori Out-of-Distribution (OOD), attacchi di bypass e distrazioni ambientali.